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LE  BIAIS  DANS  L'ECHANTILLON  DU  RECENSEMENT  CANADIEN  DE  1996 
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RESUME 

Dans  le  recensement  de  la  population  canadienne,  I'information  demographique  de  base  est  recueillie  auprfes  de  tous  les 
manages.  De  I'information  additionnelle  est  recueillie  aupres  des  menages  faisant  partie  d'un  echantillon  systfimatique 
s61ectionne  de  fafon  indfipendante  dans  chaque  secteur  de  denombrement  au  Canada.  Tout  chiffre  de  population  dependant 
de  I'information  recueillie  dans  I'Schantillon  seulement  doit  done  etre  estimfi.  Dans  cet  article,  i  I'aide  de  m^thodes 
statistiques  simples,  nous  montrons  que  I'echantillon  du  recensement  est  biaise,  en  ce  sens  que  certains  types  de  manages 
ou  de  personnes  sont  sur-repr6sent6s  ou  sous-representes  dans  I'echantillon  par  rapport  i  la  population,  sans  que  cette 
difference  echantillon/population  puisse  Stre  expliquee  seulement  par  la  variabilite  d'6chantillonnage.  La  mfithodologie 
utilisfie  pour  d6tecter  le  biais  y  est  d^crite,  et  nous  teutons  aussi  d' identifier  certaines  sources  de  ce  biais.  Puisque 
Statistique  Canada  publie  des  milliers  d'estimations  a  partir  des  donnees  du  recensement,  le  biais  dans  I'echantillon  du 
recensement  est  une  preoccupation  importante. 

MOTS  CLfiS  :  Recensement;  estimation  par  calage;  non-rfiponse  totale;  echantillonnage  systematique. 

ABSTRACT 

In  the  Canadian  Census  of  population,  the  basic  demographic  information  is  gathered  on  a  100%  basis.  Additional 
questions  are  asked  on  a  sample  basis  to  a  one  in  five  systematic  sample  of  households,  selected  independendy  in  each 
enumeration  are  in  each  enumeration  area  in  Canada.  Any  population  figure  that  depends  on  the  information  known  for 
the  sampled  households  only  then  has  to  be  estimated.  In  this  paper,  using  simple  statistical  techniques,  we  show  that  the 
Census  sample  is  biased,  in  the  sens  that  some  household  or  person  types  are  over-represented  or  under-represented  in  the 
sample  compared  to  the  population  and  that  this  misrepresentation  cannot  be  explained  by  sampling  variability  only.  The 
methodology  used  to  detect  the  bias  is  described,  and  we  also  attempt  to  identify  some  sources  of  this  bias.  Since  Statistics 
Canada  publishes  thousands  of  Census  estimates,  the  bias  in  the  Census  sample  is  an  important  concern. 

KEY  WORDS:  Census;  calibration  estimation;  total  non-response;  systematic  sampling. 


1.    INTRODUCTION 

Dans  le  recensement  de  la  population  canadienne, 
chaque  m6nage  doit  foumir  de  I'information 
demographique  de  base  sur  toutes  les  personnes  qui  le 
composent.  On  demande  ensuite  aux  m6nages  faisant 
partie  d'un  6chantillon  de  foumir  de  I'information 
additionnelle.  L' information  de  base  est  ensuite  utilis6e 
comme  information  auxiliaire  pour  estimer  des 
caract6ristiques  de  la  population  d6pendant  de 
I'information  recueillie  dans  I'dchantillon  seulement. 
Aprfes  le  recensement  de  1996,  comme  apr^s  plusieurs 
recensements  precedents,  une  importante  etude  de  biais 
a  ete  realisee  h.  Statistique  Canada.  L'objectif  principal 


de  cette  etude  etait  de  determiner  si  I'echantillon  du 
recensement  etait  biaise,  en  ce  sens  que  certains  types  de 
menages  ou  de  personnes  etaient  sur-representes  ou 
sous-representes  dans  I'echantillon  par  rapport  k  la 
population,  sans  que  ceci  puisse  Stre  explique 
uniquement  par  le  plan  d' echantillonnage  et  la 
variabilite  d'echantilloimage.  Si  un  tel  biais  etait. 
present,  I'etude  cherchait  egalement  k  en  identifier  les 
causes. 

Dans  cet  article,  quelques  resultats  de  I'etude  de  biais  du 
recensement  de  1996  sont  presentes.  L'accent  sera  mis 
sur  la  methodologie  utilisee  puisque  celle-ci  difffere 
legerement  de  celles  utilisees  dans  les  etudes  de  biais 
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des  recensements  pr6c6cients.  A  la  section  2,  le  plan 
ci'6chantillonnage  et  la  mdthode  d' estimation  utilises 
dans  le  recensement  de  1996  seront  pr6sent6s.  Plusieurs 
sources  possibles  de  biais  dans  I'echantillon  du 
recensement  seront  ensuite  identifi6es  h  la  section  3. 
Finalement,  la  m6thodologie  utilis6e  pour  detecter  le 
biais  dans  l'6chantillon  sera  d6crite  k  la  section  4,  et 
quelques  r&ultats  de  l'6tude  du  biais  seront  pr6sent6s 
aux  sections  5  et  6. 

2.    PLAN  D'ECHANTILLONNAGE  ET 
METHODE  D'ESTIMATION 

Dans  le  recensement  canadien  de  1996,  un  6chantillon 
systdmatique  de  manages  priv6s  (avec  pas  de  sondage 
6gal  k  cinq)  a  6t6  s61ectionn6  dans  42  952  des  49  359 
secteurs  de  d6nombrement  (SD)  au  Canada.  Chaque 
manage  ne  faisant  pas  partie  de  l'6chantillon  a  re9u  un 
questionnaire  court,  aussi  appel6  questionnaire  2A;  ce 
document  recueillait  de  1' information  d6mographique  de 
base  sur  les  membres  du  manage  comme  par  exemple 
rage,  le  sexe  et  l'6tat  matrimonial.  Quant  aux  manages 
6chantillonn6s,  ils  ont  regu  un  questionnaire  long,  aussi 
appel6  questionnaire  2B.  En  plus  de  I'information  de 
base  recueillie  par  le  questionnaire  2 A,  le.  questionnaire 
2B  recueillait  de  I'information  suppl6mentaire  portant, 
par  exemple,  sur  le  revenu,  la  langue,  et  le  type  de 
logement.  L'information  recueillie  par  les. deux  types  de 
document  est  souventappel6e  in/brmario«  2A,  alors  que 
celle  recueillie  uniquement  par  le  questionnaire  long  est 
appel6e  information  2B,  Les  manages  vivant  en 
institution  et  les  manages  vivant  dans  les  SD  oil  il  n'y  a 
pas  d'6chantillonnage  (qui  sont,  dans  la  plupart  des  cas, 
des  reserves  autochtones  ou  des  SD  contenant 
exclusivement  des  m6nages  vivant  en  institution)  ne  sont 
pas  consid6r6s  dans  cet  article. 

L'information  2B  n'6tant  connue  que  pour  les  manages 
6chantillonn6s,  tout  chiffre  de  population  en  d6pendant 
doit  gtre  estim6.  La  mdthode  d' estimation  utilis6e  dans 
le  recensement  de  1996  6tait  une  mSthode  d' estimation 
pai-  calage.  Cette  m6thode  consistait  \  ajuster  le  moins 
possible  (par  rapport  k  une  certaine  mesure  de  distance) 
les  poids  initiaux  des  manages  6chantillonn6s  (qui  sont 
ddfinis  comme  6tant  I'inverse  de  la  fraction 
d'6chantillonnage  pour  tous  les  mdnages  6chantillonn6s 
d'un  mgme  SD)  de  mani^re  k  ce  que  les  estimations  de 
totaux,  bas6es  sur  ces  nouveaux  poids,  soient  6ga]es  aux 
totaux  correspondants  pour  plusieurs  variables  2A 
appel6es  contraintes.  Ces  totaux  furent  calculus  h.  partir 
de  I'ensemble  des  mdnages  recens6s.  Des  exemples  de 
contraintes  utilis6es  sont  le  nombre  d'hornmes,  le 
nombre  depersonnes,  le  nombre  d'enfants  dges  entre  0 


et  4  ans  et  le  nombre.de  personnes  mariees.  Cet 
ajustement  des  poids  fut  r6alis6  ind6pendamment  dans 
chacune  des  5932  regions  de  pond6ration  (RP),  qui  sont 
des  regroupements  de  SD  g6ographiquement  contigus 
(sept  en  moyenne)  contenant  entre  1000  et  3000 
manages.  Les  poids  obtenus  k  la  suite  de  cet  ajustement 
(que  nous  appellerons  les  poids  fmaux)  furent  utilises 
pour  produire  toutes  les  estimations  reliees  k 
l'information  2B. 

Selon  le  choix  de  la  mesure  de  distance,  on  peut  montrer 
que  cette  technique  d' estimation  est  6quivalente  k  une 
technique  d' estimation  par  regression,  dans  laquelle  les 
variables  que  nous  avons  appel6es  contraintes  sont 
utilis^es  comme  variables  auxiliaires  (voir  Deville  et 
Sarndal,  1992,  pour  plus  de  details).  C'est  pr6cis6ment 
le  cas  de  la  mesure  de  distance  choisie  pour  le 
recensement.  Cette  m6thode  est  utilis6e  dans  le 
recensement  afm:  1)  d'obtenir  des  estimateurs  dont  les 
variances  sont  plus  petites  que  les  estimateurs  bas6s  sur 
les  poids  initiaux,  gr^ce  k  I'utilisation  d'information 
auxiliaire;  2)  de  r6duire  I'impact  de  tout  biais  present 
dans  l'6chantillon  sur  les  estimateurs;  3)  de  r6duire  les 
differences  entre  les  totaux  de  variables  2 A  et  les 
estimations  de  ces  totaux,  qui  apparaissent  dans  les 
tableaux  pr^sentant  les  estimations  de  totaux  de 
variables  2A  crois6es  avec  des  variables  2B;  Le  syst^me 
de  pond6ration  du  recensement  de  1996  est  d6crit  de 
fa9on  d6taill6e  dans  BanMer,  Houleet  Luc  (1997). 

3.    SOURCES  DE  BIAIS  DANS  LE 
RECENSEMENT 

Le  terme  echantillon  biaise  (ou  biais  dans  I'echantillon) 
est  peu  habituel  quoiqu'il  soil  sou  vent  utilis6  dans  le 
contexte  du  recensement.  Nous  d6butons  cette  section 
par  expliquer  ce  que  nous  entendons  exactement  par 
echantillon  biaise. 

L'6chantillon  originalement  s61ectionn6  dans  le 
recensement  est  un  echantillon  syst6matique  de  manages 
avec  pas  de  sondage  egal  k  cinq,  stratifie  par  SD.  En 
absence  de  toute  source  d'erreur,  les  poids  initiaux  des 
mdnages  6chantillonn6s,  que  nous  avons  d6finis  k  la 
section  pr6c6dente,  seraient  6gaux  aux  poids 
d'6chantillonnage,  c'est-k-dire  cinq  (pour  simplifier  les 
choses,  nous  supposerons  que  dans  chaque  SD,  le, 
nombre  de  m6nages  est  un  multiple  de  cinq). 
L'estimateur  du  total  dans  la  population  d'une  variable 
d'int^rSt,  bas6  sur  ces  poids,  serait  alors  sans  biais 
(puisque  cet  estimateur  serait  simplement  un  estimateur 
d'Horvitz-Thompson).  Dans  ces  conditions,  l'estimateur 
d'un  tel  total,  utilisant  cette  fois  les  poids  calcul6s  par  le 
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syst^me  de  poncl6ration  du  recensement,  serait 
approximativement  sans  biais.  Toutefois,  pour 
diff6rentes  raisons,  le  nombre  de  m6nages  2B  est 
diffdrent  du  nombre  de  m6nages  originalement 
6chantillonn6  dans  la  plupart  des  SD,  et  done  ces  poids 
sont  souvent  diff6rents  de  cinq.  Puisque  ce  sont  ces 
poids  qui  sont  ajust6s  par  le  syst^me  de  pond6ration 
plut6t  que  les  poids  6gaux  k  cinq,  nous  dirons  que 
r6chantillon  du  recensement  est  sans  biais,  si,  pour 
n'importe  quelle  variable  d'int6ret,  I'estimateur  du  total 
dans  la  population  de  cette  variable,  bas6  sur  les  poids 
initiaux,  est  sans  biais  (sous  I'hypoth^se  d'une  r6p6tition 
infinie  du  recensement  et  de  toutes  ses  6tapes  sous  les 
memes  conditions  qui  pr6valaient  en  1996).  Autrement, 
nous  dirons  que  I'echantillon  est  biaisd. 

Dans  le  recensement,  plusieurs  sources  de  biais 
potentielles  peuvent  etre  identifi6es.  Parmi  les  plus 
importantes,  on  retrouve: 

1)  les  erreurs  de  couverture,  qui  surviennent  lorsque 
certaines  personnes  ne  sont  pas  recens6es  ou 
recens6es  plus  d'une  fois; 


2B,  et  consid6rons  X  ,  le  total  dans  la  population  du 
SD  d'une  variable  d'int6rSt  x  (comme  par  exemple^le 
nombre  de  femmes  dans  un  manage).  Soit  X  , 
I'estimateur  de  X  qui  utilise  les  poids  initiaux  pour 
ponderer  les  manages  2B,  c'est-£l-dire  I'estimateur  ddfini 
par 


gh 


(4.1) 


OU  X  .repr6sente  la  valeur  de  la  variable  x  pour^le 
/i'^""*  manage  2B  .  Ddnotons  maintenant  par  Var(X  ) 
la  variance  de  I'estimateurX  ,  calcul6e  sous  I'hypxjth^se 
que  r^chantillon  n'est  pas  biais6.  Finaiement,  posons 


E  (^.-^P 


•__s=L 


^ 


(4.2) 


EVarCej 


«=i 


2)  la  conversion  des  questionnaires  2B  en 
questionnaires  2A  pour  61iminer  la  non-r6ponse 
totale  dans  1' ensemble  des  m6nages  2B  (en  d'autres 
termes,  les  manages  6chantillonn6s  non-rdpondants 
sont  exclus  de  I'echantillon); 

3)  le  syst&me  d'imputation  du  recensement  qui  est 
utilis6  pour  61iminer  la  non-r6ponse  partielle  et 
corriger  certaines  r6ponses  incohfirentes; 

4)  les  recenseurs  qui  ne  distribuent  pas  toujours  les 
bons  questionnaires  aux  bons  manages; 

5)  les  erreurs  de  r6ponse,  qui  surviennent  lorsque 
certains  manages  ne  r6pondent  pas  correctement  aux 
questions. 

Notons  que  les  points  2  et  4  expliquent  le  fait  que  les 
poids  initiaux  des  manages  2B  ne  sont  pas  toujours 
6gaux  ^  cinq.  Ces  poids  initiaux  peuvent  Stre  vus  comme 
6tant  les  poids  d'6chantillonnage,  ajustfis  pour  tenir 
compte  de  la  difference  entre  la  taiUe  de  I'echantillon 
vis6e  et  celle  rdellement  obtenue. 

4.    METHODE  DE  DETECTION  DU  BIAIS 

Dans  une  region  g6ographique  donnde,  supposons  qu'il 
y  ait  G  SD.  Dans  le  ^'^""'SD,  ddnotons  par  A^    le 


Puisque  les  6chantillons.  sont  seiectionnds  de  fafon.. 
independante  dans  chaque  SD,  la  loi  de  la  statistique  Z 
ainsi  d6finie  devrait  6tre  trbs  pr^s  d'une  loi  normale  de 
moyenne  0  et  de  variance  1 ,  si  G  n'est  pas  trop  petit,  ce 
qui  sera  le  cas  si  la  rdgion  g6ographique  qui  nous 
interesse  est  une  division  de  recensement,  une  province, 
ou  encore  le  pays  tout  entier.  Dans  le  cas  oh  la  variable 
d'interSt  x  est  une  variable  dependant  de  I'information 
2A,  c'est-i-dire  I'information  recueillie  aupr^s  de  tous 
les  menages,  la  statistique  Z  pent  Stre  calculde  dans 
n'importe  quelle  r6gion  g6ographique,  puisque  la  valeur. 
d'une  telle  variable  x  est  connue  pour  tous  les  manages. 
La  strategic  adoptee  pour  detecter  le  biais  dans 
I'echantillon  etait  done  de  calculer  la  valeur  de  la 
Statistique  Z  pour  plusieurs  variables  2A  k  differents 
niveaux  geographiques  pour  ensuite  evaluer  leur 
plausibilite  sous  I'hypothese  qui  stipule  que  la  loi  de  Z 
est  la  A^(0, 1).  Notons  que  la  detection  du  biais  pour  les 
variables  2 A  suggfere  forteraent  que  I'echantillon  est 
aussi  biaise  relativement  aux  variables  2B. 

Evidemment,  puisque  les  differentes  sources  d'erreur 
enumerees  k  la  section  precedente  affectent  autant  les 
menages  2A  que  les  mdnages  2B,  les  totaux  X  ,  que 
nous  avons  calcuies  h  partir  des  menages  2A  et  2B,  ne 
sont  pas  les  "vrais"  totaux.  Nous  les  considererons 
toutefois  comme  etant  approximativement  exacts.  Tout 
comme  pour  les  totaux  X^,  les  variances  Var(X  ) 


nombre  de  menages  et  par  n     le  nombre  de  menages       furent  calcuiees  en  utilisant  les  donnees  de  I'ensemble 
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des  manages  2A  et  2B,  en  supposant  que  le  recensement 
n'6tait  affect6  par  aucune  source  d'erreur.  n  fallait 
toutefois  tenir  compte  du  fait  que  la  taille  de 
lr6chantillon  obtenue  6tait  souvent  differente  de  celle 
vis^e.  Pour  ce  faire,  nous  avons  suppos6  que: 

1)  I'ensemble  des  mdnages  2B  ne  faisant  pas  paitie  de 
r^chantillon  original  pouvait  Stre  consid6r6  comme 
un  sous-6chantillon  al6atoire  simple  sans  remise 
sdlectionnd  parmi  les  m6nages  non  6chantillonn6s; 

2)  I'ensemble  des  manages  2A  faisant  partie  de 
l'6chantillon  original  pouvait  Stre  consid6r6  comme 
un  sous-6chantillon  al6atoire  simple  sans  remise 
s61ectionn6  parmi  les  m6nages  6chantillonn6s. 

Faire  ces  deux  hypotheses  revenait  k  supposer  qu'il  n'y 
avait  pas  de  type  de  manages  ou  de  personnes  qui  6tait 
plus  susceptible  que  d'autres  de  r6pondre  ou  de  se  voir 
assignor  le  mauvais  type  de  questionnaire  par  un 
recenseur  (et  done  que  les  erreurs  faites  par  les 
recenseurs  et  la  non-r6ponse  totale  n'6tait  pas  des 
sources  de  biais  dans  I'dchantillon). 

Remarque.  Dans  I'Stude  du  biais  du  recensement  de 
1991  (et  dans  les  autres  recensements  pr6c6dents),  la 
variance  de  X  6tait  calcul6e  en  supposant  que  dans 
j^^  chaque.SD,  I'dchantillon  originalement  s61ectionn6  6tait 
un  6chantillon  al6atoire  simple;sans,remiseplut6t  qu'un 
6chantillon  syst6matique.  Toutefois,  jamais  le  bien- 
fondS  decette  hypoth&se  n' avait  .6t6  6tudi6.  En  1996, 
nous  avons  tenu  compte  del' aspect  syst^matique  de 
rSchantillon,  en  identifiant  dans  chaque  SD,  les  cinq 
6chantillons  qu'il  6tait  possible  de  s61ectionner,  et  en 
calculant  ensuite  la  variance  de  I'estimateur  X^  k  partir 
des  cinq  valeurs  que  celui-ci  pouvait  prendre.  La 
variance  ainsi  calculte  a  ensuite  6t6  ajustfe  pour  tenir 
compte  des  hypotheses  1  et  2  du  paragraphe  pr6c6dent. 

Nous  avons  aussi  calcul6  les  variances  des  estimateurs 
bas6s  sur  les  poids  initiaux  suivant  les  hypotheses  de 
1991  k  plusieurs  niveaux  g^ographiques,  afm  de  les 
comparer  avec  les  variances  calcul6es  en  tenant  compte 


du  plan  d'6chantillonnage  syst6matique;  il  s'est  av^rd 
que  les  variances  calcul6es  en  tenant  compte  du  plan 
d'6chantillonnage  syst6matique  dtaient  plus  petites,  en 
moyenne,  et  ce,  k  tons  les  niveaux  g6ographiques. 
Toutefois,  I'utilisation  de  I'un  ou  I'autre  des  ensembles 
de  variances  dans  1' etude  de  biais  n'en  affectait  pas  les 
conclusions  generales. 

5.    LE  BIAIS  AU  NIVEAU  DES  DIVISIONS  DE 
RECENSEMENT 

Le  biais  dans  I'echantillon  du  recensement  a  ete  etudi6 
h  plusieurs  niveaux  geographiques,  k  I'aide  de  la 
statistique  Z  definie  k  la  section  precedente,  et  ce,  pour 
32  variables  demographiques  reli6es  a  I'Sge,  le  sexe  et 
retat  matrimonial  des  membres  des  manages.  Nous 
pr6sentons  ici  les  r6sultats  au  niveau  des  divisions  de 
recensement  (DR)  pour  quelques-unes  de  ces  variables. 
Les  DR,  qui  sont  au  nombre  de  281  au  Canada,  sont  des 
regions  geographiques  coritenant,  en  moyenne,  153  SD 
et  38  000  menages. 

Pour  chacune  des  32  variables  de  retude,  la  statistique 
Z  a  d'abord  ete  calcuiee  dans  les  281  DR.  L'hypothese 
stipulant  que  la  loi  de  la  statistique  Z  etait  la  loi  N(0,  .1) 
a  ensuite  et6  testee  k  I'aide  du  test  de  Kolmogorov  au 
seuil  de  5%.  L'hypothese  fut  rejetee  pour. 20  des  32 
variables  (63%).  Letest  de  Kolmogorov  flit  applique 
une  deuxieme  fois  pour  tester  la  normalite  des 
.  statistiques  Z,  mais  cette  fois,  sans  specifier  la  moyenne 
de  la  loi  normale  (tout  en  gardant  la  variance  egale  ^1); 
l'hypothese  ne  fut  rejetee  pour  aucune  des  32  variables. 
Notons  que  ceci  tend  k  confirmer  que  l'hypothese  de 
normalite  de  moyenne  0  et  de  variance  1  en  1' absence  de 
biais  est  raisonnable.  Le  biais  dans  I'echantillon  semble 
done  affecter  I'esperance  de  la  statistique  Z  tout  en 
preservant  approximativement  sa  normalite  (avec 
variance  egale  k  1).  Le  tableau  suivant  montre  la 
moyenne  et  I'ecart-type  des  statistiques  Z  ainsi  que  les 
seuils  critiques  ("p-values")  des  deux  tests  de 
Kolmogorov  (Prob  >  D  et  Prob  >  Dj)  pour  cinq 
variables. 
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Tableau  1:  Moyenne  et  ecart-type  des  statistiques  Z  et  resultat  du  test 
de  Kolmogorov  pour  quelques  variables 


Variable 

Moyenne 

Ecart-Type 

Prob  >  D 

Prob  >  D^ 

Norabre  d'hommes 

-0.07 

1,07 

0,68 

0,99 

Nombre  de  femmes 

0,55 

1,08 

0 

0,98 

Nombre  d'enfants  (0^4  axis) 

0,33 

1,06 

0 

0,71 

Nombre  de  personnes  marines 

0,87 

1,03 

0 

0,49 

Nombre  de  personnes  seules 

-0,69 

1.02 

0 

0.86 

Ces  r^sultats  suggferent  que  les  femmes,  les  enfants  de  0 
£l  4  ans  et  les  personnes  mariees  6taient 
significativement  sur-repr6sent6es  dans  I'^chantillon  du 
recensement,  alors  que  les  personnes  vivant  seules 
6taient  significativement  sous-repr6sent6es.  Des 
exemples  de  d'autres  types  de  personnes  qui  6taient 
significativement  sur-repr6sent6s  dans  I'^chantillon  sont 
les  enfants  de  5  i  14  ans  et  les  personnes  agees  entre  45 
et  54  ans,  alors  que  les  jeunes  adultes  (20  ^  34  ans)  et  les 
personnes  s6par^es  (incluant  divorc6es  et  veuves)  sont 
des  exemples  de  types  de  personnes  qui  6taient 
significativement  sous-repr6sent6s  dans  I'dchantillon. 

6.    IMPACT  DE  LA  NON-REPONSE  TOTALE 
SUR  LE  BIAIS 


manquante  a  et6  imput^e. 

Pour  etudier  I'impact  de  ces  deux  types  de  non-r6ponse, 
une  analyse  similaire  i  celle  d^crite  ^  la  section  4  fut 
faite.  Nous  en  donnons  quelques  brefs  r6sultats  ici.  Pour 
les  32  variables  de  I'dtude,  les  statistiques  Z  ont  6t6 
recalcul6es  dans  les  281  DR,  mais  cette  fois,  apr^s  avoir 
exclu  tons  les  manages  qui  n'avaient  pas  r6pondu  du 
tout  (autant  dans  I'ensemble  des  manages  2B  que  dans 
r ensemble  des  manages  2A).  De  plus,  tous  les 
questionnaires  2B  convertis  en  questionnaires  2A  ont 
6t6  reconvertis  en  questionnaires  2B.  Ensuite,  pour 
chacune  des  variables,  la  moyenne  des  281  statistiques 
Z  a  6t6  compar6e  avec  la  moyenne  obtenue  i  la  section 
5. 


Une  des  causes  possibles  de  biais  dans  I'echantillon  du 
recensement  les  plus  facilement  identifiables  est  la  non- 
r^ponse.  Comme  dans  la  plupart  des  enquetes,  il  y  a 
deux  types  de  non-r6ponse  dans  le  recensement:  la  non- 
r6ponse  totale  et  la  non-r6ponse  partielle.  La  premiere 
survient  lorsqu'un  manage  ne  r6pond  pas  du  tout  i  son 
questionnaire;  la  deuxi^me  survient  lorsque  le  manage 
r6pond  ^  au  moins  une  question  du  questionnaire  sans 
r6pondre  ^  toutes.  Nous  analysons  ici  I'impact  de  la  non- 
r6ponse  totale  et  d'un  certain  type  de  non-r6ponse 
partielle  sur  le  biais  dans  r6chantillon  du  recensement. 

Lors  du  recensement  de  1996,  86  183  manages  n'ont 
pas  r6pondu  du  tout  ^leur  questionnaire.  Parmi  ceux-ci, 
environ  40%  6taient  des  manages  2B.  Tous  ces  manages 
ont  vu  leurs  questionnaires  6tre  transformds  en 
questionnaires  2A  et  toute  1' information  2A  a  ixi 
imput^e  (les  manages  2A  non-r6pondants  sont  bien  siir 
demeur6s  des  manages  2 A,  et  toute  1' information  2 A  a 
6t6  impulse).  De  plus,  3  358  manages  ayant  re^u  un 
questionnaire  2B  ont  r^pondu  ^  au  moins  une  question 
2A,  sans  r6pondre  k  aucune  question  2B;  comme  dans  le 
cas  de  la  non-r6ponse  totale,  ces  manages  ont  6t6 
transform6s   en   manage   2 A,    et   1' information   2 A 


Pour  22  variables  sur  32,  la  moyenne  des  statistiques  Z 
6tait  consid6rablement  plus  proche  de  0  que  la  moyenne, 
correspondante  obtenue  sans  exclure  les  non-r6pondants 
et  sans  reconvertir  aucun  questionnaire.  Par  exemple,  la 
moyenne  pour  la  variable  nombre  de  femmes  est  pass6e 
de  0.55  ^  0.43,  et  celle  pour  le  nombre  de  personnes 
vivant  seules  est  pass6e  de  -0.69  i  -0.49.  Cependant, 
pour  23  variables  sur  32,  la  moyenne  des  statistiques  Z 
6tait  toujours  significativement  diff6rente  de  0,  en  se 
basant  cette  fois  sur  un  test  de  Student  i  un  seuil  de  5%. 
A  la  suite  de  cette  analyse,  il  fut  conclu  que  les  deux 
types  de  non-reponse  dont  nous  avons  parl6s  ici  6taient 
une  source  importante  de  biais  dans  I'echantillon  du 
recensement,.  sans  pour  autant  en  etre  la  seule. 

7.    CONCLUSION 

Les  resultats  de  cette  6tude  du  biais  dans  le  recensement 
canadien  de  1996  ont  clairement  montr6  que 
I'dchantillon  du  recensement  (c'est-^-dire  I'ensemble 
des  m6nages  2B)  6tait  biaise,  en  ce  sens  que  certains 
types  de  mdnages  ou  de  personnes  y  6taient  sur- 
represent^s  ou  sous-repr6sent6s  par  rapport  h.  la 
population,    sans   que   cette   difference  puisse   6tre 
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expliqu6e  par  la  variability  d'6chantillonnage  seulement. 

Dans  cet  article,  nous  avons  identifid  une  source 
importante  de  biais  dans  I'dchantillon:  la  non-r6ponse 
totale.  D'autres  sources  potentielles  de  biais  ont  aussi 
6t6  6tudi6es,  comme  par  exemple  le  fait  que  les 
recenseurs  n'attribuent  pas  toujours  des  questionnaires 
2B  k  tous  les  m6nages  6chantillonn6s  et  uniquement  aux 
manages  6chantillonn6s.  Les  contributions  respectives 
au  biais  de  ces  autres  sources  potentielles  se  sont 
toutefois  av6r6es  trop  petites  pour  6tre  d6tect6es.  Une 
autre  source  de  biais  que  Ton  aoit  §tre  importante  et 
qui  n'a  toujours  pas  6t6  6tudi6e  et  (mais  qui  le  sera 
dventuellement)  est  le  syst^me  d' imputation  utilis6  pour 
corriger  la  non-r6ponse  partielle  et  les  r6ponses 
incoh6rentes  sur  certains  questionnaires,  ainsi  que  pour 
61iminer  la  non-r6ponse  totale  sur  les  questionnaires  2A. 

M§me  s'il  est  pratiquement  impossible  d'61iminer  toutes 
les  sources  de  biais  dans  I'dchantillon,  il  est  toutefois 


possible  de  reduire  I'impact  de  quelques-unes  d'elles  sur 
les  estimateurs  du  recensement.  Par  exemple,  on  pent 
montrer  que  la  technique  d'estimation  par  calage  utilis6e 
dans  le  recensement  est  susceptible  de  r6duire  I'impact 
de  la  non-r6ponse  totale  sur  le  biais  des  estimateurs,  a 
condition,  que  le  modele  de  rdgression  sous-jacent  soit 
appropri6  et  que  les  totaux  des  variables  2A  utilisdes 
pour  effectuer  le  calage  soient  les  plus  exacts  possibles. 
Ces  deux  aspects  seront  6tudi6s  dans  le  futur. 
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